第2.5节 线性回归(梯度下降)
2.5梯度下降 2.5.1 方向导数与梯度 2.5.2 梯度下降算法 2.5.3 小结
2.5梯度下降
在2.1.3节中,笔者不假思索地直接给出了线性回归模型的目标函数,但并没有给出严格的数学定义。同时,在求解的过程中也是直接通过开源框架sklearn实现,也不知道其内部的真正原理,因此,在这一节内容中我们将会仔细地学习目标函数的求解过程及最小二乘法。
根据前面的介绍可以知道,梯度下降算法的目的是用来最小化目标函数,也就是说梯度下降算法是一个求解的工具。当目标函数取到(或接近)全局最小值时,我们也就求解得到了模型所对应的参数。不过那什么又是梯度下降(Gradient Descent)呢?如图2-9所示,假设有一个山谷,并且你此时处于位置A处,那么请问以什么样的方向(角度)往前跳,你才能最快地到达谷底B处呢?
现在大致有3个方向可以选择,沿着轴的方向,沿着轴的方向及沿着两者间的方向。其实不用问,大家都会选择所在的方向往前跳第一步,然后接着选类似的方向往前跳第二步直到谷底。可为什么都应该这样选呢?答:这还用问一看就知,不信请读者自己试一试。
2.5.1 方向导数与梯度
由一元函数导数的相关知识可知,在处的导数反映的是在处时的变化率;越大,也就意味着在该处的变化率越大,即移动后产生的函数增量越大。同理,在二元函数中,为了寻找在A处的最大变化率,就应该计算函数在该点的方向导数
其中,为单位向量;和分别为与轴和轴的夹角;为梯度方向与l的夹角。
根据式(2.13)可知,要想方向导数取得最大值,那么必须为0。由此可知,只有当某点处方向导数的方向与梯度的方向一致时,方向导数在该点才会取得最大的变化率。
在图2-9中,已知,A的坐标为,则,则。由此可知,此时在点A处梯度的方向为,所以当你站在A点并沿各个方向往前跳跃同样大小的距离时,只有沿着这个方向(进行了单位化,并且同时取了相反方向,因为这里需要的是负增量)才会产生最大的函数增量。
如图2-10所示,要想每次都能以最快的速度下降,则每次都必须向着梯度的反方向向前跳跃。
2.5.2 梯度下降算法
介绍这么多总算是把梯度的概念讲清楚了,那么如何用具体的数学表达式进行描述呢?总不能一个劲儿地喊它“跳”对吧。为了方便后面的表述及将读者带入一个真实求解的过程中,这里先将图2-9中的字母替换成模型中的参数进行表述。
现在有一个模型的目标函数(为了方便可视化,此处省略了参数,但是原理都一样),其中和为待求解的权重参数,并且随机初始化点A为初始权重值。下面就一步步地通过梯度下降算法进行求解。
如图2-11所示,设初始点,则此时,并且点第一次往前跳的方向为 ,即这个方向。
如图2-12所示,为平面上梯度的反方向,为其平移后的方向,但是长度为之前的倍,因此,根据梯度下降的原则,此时曲面上的点就该沿着其梯度的反方向跳跃,而投影到平面则为应该沿着的方向移动。假定曲面上从点跳跃到了点,那么对应在投影平面上就是图2-12中的部分,同时权重参数也从的位置更新到了点的位置。
从图2-12可以看出,向量、和三者的关系为
进一步,可以将式(2.14)改写成
又由于和本质上就是权重参数和更新后与更新前的值,所以便可以得出梯度下降的更新公式为
其中,,为权重的梯度方向;为步长,用来放缩每次向前跳跃的距离。同时,将式(2.16)代入具体数值后可以得出,曲面上的点A在第一次跳跃后的着落点为
此时,权重参数便从更新为。当然其目标函数也从24更新为16.8。至此,我们便详细地完成了1轮梯度下降的计算。当跳跃到之后,又可以再次利用梯度下降算法进行跳跃,直到跳到谷底(或附近)为止,如图2-13所示。
最后,根据上述原理,还可以通过实际的代码将整个过程展示出来,完整代码见Book/Chapter02/08_gradient_descent_visualization.py
文件,代码如下:
1 def gradient_descent():
2 w1, w2 = -2, 3
3 jump_points = [[w1, w2]]
4 costs,step = [cost_function(w1, w2)],0.1
5 print("P:({},{})".format(w1, w2), end=' ')
6 for i in range(20):
7 gradients = compute_gradient(w1, w2)
8 w1 = w1 - step * gradients[0]
9 w2 = w2 - step * gradients[1]
10 jump_points.append([w1, w2])
11 costs.append(cost_function(w1, w2))
12 print("P{}:({},{})".format(i + 1, round(w1, 3), round(w2, 3)), end=' ')
13 return jump_points, costs
通过上述Python代码便可以详细展示跳向谷底时每一次的落脚点,并且可以看到谷底的位置就在附近,如图2-14所示。此致,笔者就介绍完了如何通过编码实现梯度下降算法的求解过程,等后续完成线性回归模型的推导后,我们再来自己编码完成线性回归模型的参数求解过程。
2.5.3 小结
在本节中,笔者通过一个跳跃的例子详细地向大家介绍了什么是梯度,以及为什么要沿着梯度的反方向进行跳跃,然后通过图示导出了梯度下降的更新公式
在这里笔者又写了一遍梯度下降的更新公式是希望读者一定要记住这个公式,以及它的由来。因为它同时也是目前求解神经网络参数的主要工具。同时,可以看出,通过梯度下降算法来求解模型参数需要完成的一个核心任务就是计算参数的梯度。最后,虽然公式介绍完了,但公式中的步长也是一个十分重要的参数,这将在第4章中进行介绍。